[논문리뷰] Long Range Arena: A Benchmark for Efficient Transformers

2021년 05월 25일 Tags:

딥러닝, 논문리뷰

요약

이 논문은 Long Range Arena(LRA)라는 이름의 Benchmark Dataset에 대해
설명하는 논문으로, 트랜스포머 모델이 긴 시퀀스에 대해 얼마나 효과적인지 평가하기 위한 데이터셋이며, 6가지 서브 태스크로 구성되어있다.
트랜스포머 모델의 self-attention은 행렬곱 연산으로 인해 token의 길이가 길어지면 complexity가 quadratic하게 증가하고, 거리가 먼 token간의 연관성을 학습하는데 어려움을 겪는다.
긴 시퀀스 문제를 트랜스포머로 해결하고자 할 때, 어떤 요소를 통해 평가할지 고민하고, 그에 맞는 여러 서브 데이터셋을 제시하였다.
각 태스크의 시퀀스의 길이는 1K에서 16K까지 다양하며, text, natural, synthetic images, mathematical expressions 등 여러 modality의 데이터로 구성되었다.
각 데이터셋에 대하여 지금까지 나온 유명한 트랜스포머 아키텍쳐 몇 개를 선정하여 baseline을 제시하였다.

Desiderata: 이 데이터셋이 추구하는 것

Generality: 여러 태스크에 적용이 가능해야 한다. 가령 모든 트랜스포머 모델이 autoregressive decoding이 가능한 것은 아니기 때문에 encoding으로만 할 수 있는 태스크로 구성한다.
Simplicity: 태스크가 간단해야 한다. 특정한 augmentation이 필요하거나, 외부 데이터셋에서 pretraining이 필요한 경우는 제외한다.
Challenging: 충분히 어려워서 연구할만한 가치를 지녀야한다.
Long inputs: Input sequence length가 충분히 길어야한다.
Probing diverse aspects: 각 서브 태스크는 다른 요소를 평가할 수 있어야한다. 예를 들어, relation, hierarchical/spatial structures, generalization capability 등의 요소가 내재되어야한다.
Non-resource intensive and accessible: 컴퓨팅 리소스에 구애받지 않도록 lightweight한 규모로 구성한다.

태스크

LONG LISTOPS
긴 맥락에서 hierarchical structure을 모델링할 수 있는지 평가하는 태스크다.
데이터셋은 Max, Mean, Median, 그리고 Sum_mod 연산이 괄호와 함께 포함되어있으며, 0에서 9까지 10개의 클래스로 분류하는 문제다.
구체적인 Input과 Output의 예시는 다음과 같다.
Input: [ MAX 4 3 [ MIN 2 3 ] 1 0 [ MEDIAN 1 5 8 9, 2 ] ]
Output: 5
문제는 간단하다. Input의 연산을 풀어서 답을 찾으면 되고,
답도 0에서 9까지만 있어 분류 문제다.
사람이 위 문제를 풀기 위해선 다음의 사고 과정을 거친다.
먼저 우선적으로 풀어야하는 괄호를 찾아 Min값 2(2와3중에 2)과 Median값 5(1,2,5,8,9 중에 5, 쉼표(,)는 노이즈다.)를 구하고 해당 괄호 부분을 2와 5로 대체하여 준다([MAX 4 3 2 1 0 5]). 그 다음 Max값 5(4,3,2,1,0,5 중에 5)를 얻는다.
이러한 기다란 수학 문제로 구성된 논리적인 구조를 트랜스포머가 풀 수 있는지 확인할 수 있는 태스크다.
단, Input은 텍스트 데이터로 입력받으며 길이가 최대 2,000까지 된다.
BYTE-LEVEL TEXT CLASSIFICATION
Byte/character-level에서의 language modeling(char LM)이다.
단어 단위로 토큰을 만드는 것이 아니라
알파벳 하나 단위로 토큰을 만드는 것이다.
예를 들면, 영어 사용자는 appl의 다음 알파벳은 e가 나올 것 같은 맥락 정보를 생각할 수 있다.
이렇게 글을 알파벳 단위로 작게 나누더라도 트랜스포머가 글을 이해할 수 있는지 확인하는 태스크다.
구체적으로 IMDb reviews 데이터셋의 문장을
알파벳 단위로 임베딩한 것을 input으로,
output은 binary(good/bad)값으로 하는 이진 분류 문제를 푼다.
알파벳 단위로 나누게 되면 길이가 최대 4,000까지 길어진다.
BYTE-LEVEL DOCUMENT RETRIEVAL
두 문서가 얼마나 유사한지 모델링하는 문제로,
문서를 byte/character-level로 임베딩하여 긴 시퀀스를 만들고,
압축된 representation간의 similarity를 비교하여 매칭하는 테스크다.
데이터는 input에 두 개의 논문이 들어가고, output은 두 논문간 인용이 되어있다면 1, 관련이 없다면 0으로 이진 분류 문제다.
문서의 길이는 4,000이고 두 개를 합치기 때문에 8,000까지 늘어나게 된다.
IMAGE CLASSIFICATION ON SEQUENCES OF PIXELS
2차원의 이미지를 1차원으로 만들어 입력하는 문제다.
이미지가 1차원의 긴 픽셀로 만들어졌을 때, 픽셀간 spatial relation을 트랜스포머가 학습할 수 있는지 여부를 확인한다.
데이터셋은 CIFAR-10을 이용하며 gray-scale로 변환하여 사용하는 이미지 분류 문제이다.
PATHFINDER (LONG-RANGE SPATIAL DEPENDENCY) 2차원의 공간에서 두 점이 선으로 연결되어있는지 여부를 판단하는 문제다.
위 그림에서 보듯이, 두 점이 연결되면 1, 연결되지 않으면 0으로 분류한다.
완전히 채워진 선이 아니라 점선으로 구성하여 노이즈가 들어있다.
이 태스크도 4번과 마찬가지로 2차원 이미지를 1차원으로 바꾸어 풀며,
길이는 $32 \times 32 = 1024$이다.
PATHFINDER-X (LONG-RANGE SPATIAL DEPENDENCIES WITH EXTREME LENGTHS)
위 5번 문제와 동일한데 차원을 훨씬 크게 늘렸다.
길이는 $128 \times 128 = 16384$이다.
이 문제는 5번 문제는 해결한 것과 연관지어 살펴보기 적절하다.
한 알고리즘이 같은 문제를 풀지만 짧은 길이는 풀고, 긴 길이는 못 푼다면
길이가 미치는 영향에 대해서 생각해볼 수 있다.

Baseline

Performance Baseline

6가지 태스크에 대하여 기본 트랜스포머와 variants 10개로 실험했고, 다만 각 모델의 저자가 직접 실험한 것이 아니기 때문에 대략적인 결과라는 것을 강조했다.
6가지 태스크 모두 분류 문제이기 때문에 metric은 accuracy이며,
각 태스크에 대해 가장 높은 값은 볼드체로, 두 번째로 높은 값은 밑줄로 표시했다.
6번 문제인 Pathfinder-X에 대해선 모든 트랜스포머가 아직 풀지 못했다.

Cost Baseline

학습 속도와 메모리도 비교해보았다.

Reference

Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, Donald Metzler
Long Range Arena: A Benchmark for Efficient Transformers
https://arxiv.org/abs/2011.04006

딥이데아 Deep Idea

[논문리뷰] Long Range Arena: A Benchmark for Efficient Transformers

요약

Desiderata: 이 데이터셋이 추구하는 것

태스크

Baseline

Reference

Recent Posts

[논문리뷰] Beyond Self-Supervision: A Simple Yet Effective Network Distillation Alternative to Improve Backbones 2021년 06월 25일

[논문리뷰] Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision 2021년 06월 12일

[논문리뷰] FNet: Mixing Tokens with Fourier Transforms 2021년 05월 27일

[논문리뷰] Emerging Properties in Self-Supervised Vision Transformers 2021년 05월 14일

[논문리뷰] Perceiver: General Perception with Iterative Attention 2021년 05월 02일